01. 概率论基础:从随机现象到条件独立
1.1 基础概念
1.1.1 随机试验与事件
概率论研究的核心是随机现象,其在数学上的形式化描述依赖于以下基本概念:
-
随机试验 (Random Experiment):满足以下三个条件的试验:
- 可在相同条件下重复进行。
- 所有可能的结果都明确可知。
- 每次试验前无法确定哪个结果会发生。
-
样本空间 (Sample Space,
):一个随机试验所有可能的基本结果(样本点 (Sample Point, ))的集合。 -
随机事件 (Random Event,
):样本空间 的一个子集。当试验结果 属于事件 (即 )时,称事件 发生。
1.1.2 事件的关系与运算
事件作为集合,其关系与运算遵循集合论的法则,这为我们分析复杂事件提供了清晰的框架。
| 关系/运算 | 记法 | 含义 |
|---|---|---|
| 包含 (Inclusion) | ||
| 和/并 (Sum/Union) | ||
| 积/交 (Product/Intersection) | ||
| 差 (Difference) | ||
| 互斥 (Mutually Exclusive) | ||
| 对立 (Complement) |
事件的运算法则:
- 交换律 (Communicative laws):
, - 结合律 (Associative laws):
, - 分配律 (Distributive law):
- 德·摩根律 (De Morgan's laws):
1.1.3 概率的公理化定义
概率是对随机事件发生可能性大小的度量。其严格的数学定义由以下三条公理给出:
设
- 非负性 (Non-negativity):对于任意事件
,有 。 - 规范性 (Normalization):
。 - 可加性 (Additivity):对于一列互斥的事件
,有:
2.1.4 概率的基本性质
由上述三条公理可推导出以下常用性质:
- 有限可加性 (Finite Additivity):若
互斥,则 。 - 补集法则 (Complement Rule):
。 - 单调性 (Monotonicity):若
,则 且 。 - 加法公式 (Addition Law):
- 容斥原理 (Inclusion-Exclusion Principle):加法公式对多个事件的推广。
1.2 概率的计算
1.2.1 古典概型 (Classical Model of Probability)
这是最基础的概率模型,适用于满足以下两个条件的随机试验:
- 样本空间
只包含有限个样 本点。 - 每个样本点发生的可能性相同(等可能性)。
在此模型下,事件
因此,古典概型的计算核心在于计数。
- 计数方法:
- 加法原理 (Addition Principle):完成一件事有
类方法,各类方法数分别为 ,则总方法数为 。 - 乘法原理 (Multiplication Principle):完成一件事有
个步骤,各步骤方法数分别为 ,则总方法数为 。 - 排列 (Permutation):从
个不同元素中取出 个进行排序,其排列数为: - 组合 (Combination):从
个不同元素中取出 个(不考虑顺序),其组合数为:
- 加法原理 (Addition Principle):完成一件事有
用例:生日问题 (Birthday Problem)
问题:一个
人的班级中,至少有两人 生日相同的概率是多少?(不考虑闰年) 分析:这是一个典型的古典概型问题,关键在于正确地计数。
- 样本空间
:每个人的生日可以是 365 天中的任意一天,所以 个人的生日序列总数为 。 - 事件
:“至少有两人 生日相同”。直接计算 比较复杂,我们考虑其对立事件 :“所有人的生日都不同”。 - 计算
:第一个人的生日有 365 种选择,第二个有 364 种,...,第 个人有 种。根据乘法原理, 包含的样本点数为 。 - 计算概率:
结论:当
时,概率就超过了 ;当 时,概率高达 。这个结果通常与直觉相悖,说明了概率计算的重要性。
1.2.2 几何概型 (Geometric Model of Probability)
几何概型是古典概型的扩展,适用于样本点有无穷多个且等可能分布在一个几何区域(如线段、面积、体积)的情况。
事件
循循善诱:贝特朗悖论 (Bertrand's Paradox)
问题:在一个圆内随机画一条弦,其长度大于该圆内接等边三角形边长的概率是多少?
这个问题之所以成为“悖论”,是因为“随机画一条弦”的定义不明确,导致了不同的样本空间和不同的答案。
- 方法一:随机中点法
- 随机方式:在圆的一条半径上随机取一点作为弦的中点。
- 样本空间:半径上的所有点。
- 分析:只有当中点落在靠近圆心的半段半径上时,弦长才符合要求。
- 概率:
。 内 半 段 半 径 长 度 总 半 径 长 度 - 方法二:随机端点法
- 随机方式:固定弦的一个端点,在圆周上随机取另一个端点。
- 样本空间:圆周上的所有点,对应
的范围。 - 分析:只有当另一端点落在特定
的弧上时,弦长才符合要求。 - 概率:
。 - 方法三:随机中点位置法
- 随机方式:在圆内随机取一点作为弦的中点。
- 样本空间:整个圆的面积。
- 分析:只有当中点落在半径为原圆一半的同心圆内时,弦长才符合要求。
- 概率:
。 小 圆 面 积 大 圆 面 积 结论:三种方法都正确,但它们基于对“随机”的不同理解,从而定义了不同的样本空间。在计算概率时,首要任务是清晰、无歧义地定义样本空间。
1.3 条件概率与独立性
1.3.1 条件概率 (Conditional Probability)
当已知某个事件
- 定义式:
其 中 - 直观理解:事件
的发生提供了新的信息,使得样本空间从 “缩减”到了 。我们关心的就是在这个新样本空间 中, 所占的比例。
1.3.2 重要定律
-
乘法法则 (Multiplication Law):由条件概率定义直接变形得到,用于计算两事件同时发生的概率。
- 链式法则 (Chain Rule):乘法法则的推广形式。
- 链式法则 (Chain Rule):乘法法则的推广形式。
-
全概率公式 (Law of Total Probability):用于计算一个复杂事件的概率,其核心思想是“化整为零,分类讨论”。 若事件
构成样本空间 的一个划分 (Partition)(即它们互斥且并集为 ),则对任意事件 :- 作用:由因索果。已知各种“原因”
的概率和在各原因下“结果” 发生的条件概率,求结果 发生的总概率。
- 作用:由因索果。已知各种“原因”
-
贝叶斯定理 (Bayes' Theorem):全概率公式的“逆过程”。 在全概率公式的条件下,若
,则:- 作用:由果溯因。当观察到“结果”
已经发生时,反过来推断它是由哪个“原因” 导致的概率。 - 术语:
:先验概率 (Prior Probability),即在获得新信息( 发生)前,对 的判断。 :后验概率 (Posterior Probability),即在获得新 信息后,对 的修正判断。
- 作用:由果溯因。当观察到“结果”
循循善诱:贝叶斯定理的应用(罕见病检测)
问题:假设一种罕见病在人群中的发病率为
(万分之一)。一种检测手段的准确率为:如果患病,有 的概率检测为阳性(真阳性);如果不患病,有 的概率检测为阳性(假阳性)。现在一个人被检测为阳性,他真正患病的概率是多少? 分析:
- 定义事件:
:此人患有该疾病。 :此人未患该疾病。 : 检测结果为阳性。 - 已知信息 (先验概率和条件概率):
(先验概率) (真阳性率) (假阳性率) - 求解目标:
(后验概率) - 应用贝叶斯定理:
- 首先,用全概率公式计算
: - 然后,计算后验概率
: 结论:即使检测结果为阳性,此人真正患病的概率也只有约
!这个与直觉严重不符的结果,是因为疾病的先验概率极低,导致了大量的假阳性淹没了真阳性。贝叶斯定理帮助我们进行这种理性的、反直觉的推理。
2.3.3 事件的独立性
-
独立性 (Independence):如果事件
的发生不影响事件 发生的概率,则称 与 独立。- 直观定义:
- 等价的计 算定义:
- 直观定义:
-
易混淆概念对比:独立 vs. 互斥
特征 独立 (Independent) 互斥 (Mutually Exclusive) 定义 关系 概率关系,描述信息上的不相关。 集合关系,描述事件不能同时发生。 联系 对于两个概率都大于 0 的事件 和 :如果它们互斥,那么它们一定不独立。因为 ,即 的发生使得 发生的概率变为 0,信息影响巨大。 -
多个事件的相互独立 (Mutual Independence): 对于
个事件 ,它们相互独立**当且仅当**对于任意子集 ,都有:注意:两两独立 (Pairwise Independence) 并不能推出相互独立。
-
条件独立性 (Conditional Independence): 事件
在给定事件 的条件下是条件独立的,如果:这个概念是许多现代机器学习模型(如朴素贝叶斯分类器)的理论基石,它通过假设特征在给定类别下是独立的,从而大大简化了计算。